其他
LM-Cocktail模型治理策略,像调鸡尾酒一样调制“多技能”语言大模型
融合多个LLM:既能提升目标任务性能,又能保持通用能力 收集和构建目标任务数据集并对大语言模型(LLM)进行微调,可以提高其在目标任务的性能表现。然而,这种方式通常会导致除目标任务以外的一般任务的性能明显下降,损害LLM原本具备的通用能力。 模型融合技术可以通过融合多个模型提高单模型的性能。受此启发,LM-Cocktail策略进一步通过对目标任务计算不同模型的重要性,赋予不同模型不同的权重,在此基础上进行模型融合,在提升目标任务上性能的同时,保持在通用任务上的强大能力。 模型治理新策略:博采众长,持续为大模型增添新技能
开源社区的模型逐渐增多,大模型开发者也可能在多次训练中累计了越来越多的模型,每个模型都具有各自的优势,如何选择合适的模型执行任务或进一步微调反而成为一个问题。
LM-Cocktail 策略可以帮助汇总各模型的优势能力,就像制作鸡尾酒那样,通过加入不同的模型进行调制,得到一个具备多种特长的“多技能”模型。
具体而言,LM-Cocktail 可以通过手动选择模型配比,或者输入少量样例自动计算加权权重,来融合现有模型生成一个新模型,该过程不需要对模型进行重新训练并且具备适配多种结构的模型,如大语言模型 Llama,语义向量模型 BGE等。
此外,如果开发者缺乏某些目标任务的标签数据,或者缺少计算资源进行模型微调,那么采用 LM-Cocktail 策略可以省去模型微调步骤,通过构造非常少量的数据样例,融合开源社区中已有的大语言模型来调制自己的“LM鸡尾酒”。
论文 https://arxiv.org/abs/2311.13534 代码 https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail
Fine-tuning of LM: LM-Cocktail Dense Retrieval: LLM Embedder、BGE Embedding、C-MTEB Reranker Model: BGE Reranker